Abstract
提出两个创新的模型架构,用于在非常大的数据集上计算连续型的词向量表示。这些表示的好坏的用词相似性任务来测量。计算复杂度下降了,同时在准确度上还有巨大的提升。在当时是state-of-the-art的做法。
1 Introduction
许多现在的系统将词表示在词库中的索引,并不包含词的相似性的概念。这个选择的原因是:简单、鲁棒以及一个观察到的现象:在大量数据上训练出来的简单模型
要比在少量数据上训练出来的复杂模型
的表现要好。一个例子就是N-gram模型。
但是简单模型也有很多的局限性,比如在数据量不足的时候。随着这些年机器学习技术的发展,在更大的数据集上训练出复杂模型成为可能,并且它的效果要好于简单模型。最成功的概念就是使用词的分布式表示。例如基于语言模型的神经网络
就显著地比N-gram模型
好。
1.1 Goals of the Paper
文章的主要目的就是介绍一个技术,这个技术可以用于学习高质量的word vector
。数据集是包含了数十亿词的巨大的数据集。其中还包含了数百万的词汇量。
我们使用了最近提出的一项技术来测量向量表示的质量。不仅相似的词要互相接近,并且这些词还要有多种程度的相似性。
有点惊喜的是,词表示的相似性不只是简单的句法规则。比如vector(“King”)-vector(“Man”)+vector(“Woman”) 约等于vector(Queen)
在这个文章中,我们尝试去最大化这些向量操作的准确性,通过开发一种新的可以保留词之间的线形规则的模型架构。我们还构建了一个综合的测试集。
2 Model Architectures
LSA
LDA
也用于估计连续的词表示。本文的方法可以比LSA的方法保留更多的线形规则,而LDA在大数据集上的计算复杂性太高了。